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Эволюционный подход к выделению 
информативных признаков в задачах анализа 
медицинских данных 


В статье рассматривается подход к выделению информативных признаков применительно к задаче 
распознавания подтипов транзиторных ишемических атак. Согласно предложенному подходу задача 
выделения признаков рассматривается как задача многокритериальной оптимизации с двумя критериями. 
Оптимизация осуществляется с использованием специального генетического алгоритма, позволяющего в 
процессе эволюции получить множество недоминируемых решений оптимизационной задачи. Предло- 
женный подход позволяет подключить эксперта на этапе окончательного принятия решений, предоставляя 
ему возможность отбора подмножества признаков, наиболее соответствующего его знаниям и 
представлениям о решаемой задаче. 


Введение 


Одним из важнейших этапов процесса извлечения знаний из большого объема 
накопленных медицинских данных является этап предобработки исходных данных, 
включающий выделение информативных признаков. Благодаря широкому распростра- 
нению компьютерных технологий, в базах данных медицинских учреждений накапли- 
вается болышое количество разнородной медицинской информации, большая часть 
которой напрямую не связана с решением какой-либо конкретной задачи, как например 
задачи классификации или прогноза. В этом случае исключение из рассмотрения 
избыточных и несущественных признаков позволяет не только повысить точность 
решения задачи и сократить время на поиск решения, но и получить более простой и 
понятный результат [1]. 

В данной статье рассматривается применение эволюционного подхода к 
выделению признаков для дифференциальной диагностики подтипов транзиторных 
ишемических атак (ТИА). Исходными данными в этом случае является набор 
клинических и персональных признаков, характеризующих пациента, который в 
свою очередь относится к одному из четырех классов [2]. Параллельно с процессом 
выделения признаков решается задача классификации, целью которой является 
предсказание класса для конкретного объекта данных, основываясь на значениях 
предсказывающих признаков. Задача выделения признаков рассматривается как 
оптимизационная задача с двумя оптимизируемыми критериями: минимизация 
ошибки классификации и количества отобранных предсказывающих признаков. 
Для решения этой задачи предлагается использовать специально разработанный 
генетический алгоритм (ГА) для многокритериальной оптимизации [3]. Основное 
преимущество применения этого алгоритма для выделения признаков состоит в 
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возможности получения множества оптимальных решений с учетом двух критериев, 
так называемых недоминируемых решений многокритериальной оптимизационной 
задачи. Такой подход позволяет избежать изначального жесткого определения весо- 
вых коэффициентов для отдельных критериев. Выбор окончательного множества 
предсказывающих признаков из различных недоминируемых комбинаций может 
осуществляться либо экспертом согласно его знаниям и опыту, либо автоматически с 
использованием тестового набора данных. 


1. Задача многокритериальной оптимизации 


Большинство решаемых практических задач предполагают поиск решения, 
являющегося оптимальным согласно нескольким критериям. Однако большинство 
методов, используемых для решения этих задач, использует единый, составной 
оптимизируемый критерий. В этом случае задача многокритериальной оптимизации 
сводится к одной или нескольким задачам однокритериальной оптимизации. Существует 
огромная разница между двумя этими задачами. При однокритериальной оптимизации 
осуществляется поиск единственного оптимального решения. При многокритериальной 
оптимизации осуществляется поиск нескольких оптимальных решений, что позволяет 
равным образом учитывать все оптимизируемые критерии [3]. После завершения 
оптимизации пользователь имеет возможность выбрать наилучшее с его точки зрения 
решение, представляющее собой компромисс между несколькими противоречивыми 
критериями. 

Поиск множества решений при многокритериальной оптимизации осно- 
вывается на концепции Парето-оптимальности. Основная ее идея заключается в 
определении понятия недоминируемости для отдельных решений оптимизационной 
задачи. Решение х! доминирует другое решение х>, если одновременно выполняются 
два следующих условия: 

1.Решение х, не хуже решения х› по любому из рассматриваемых в задаче 
критериев. 

2. Решение х! строго лучше решения х> по крайней мере по одному из критериев. 

Если не существует ни одного решения, удовлетворяющего вышеперечисленным 
условиям, то х> является недоминируемым или Парето-оптимальным решением много- 
критериальной задачи. 

Согласно предложенному в статье подходу, выделение информативных приз- 
наков для решения задачи распознавания подтипов ТИА представляется как задача 
многокритериальной оптимизации. 

Пусть © — множество различных подмножеств признаков, характеризующих 
объект данных. Каждое подмножество представляет собой некоторую комбинацию 
входных признаков из максимально возможного количества комбинаций 2”, где и — 
количество входных признаков. Требуется выделить подмножество признаков 
5 ЕО, которое является решением двухкритериальной задачи оптимизации с двумя 
следующими критериям: 


тах /1(5), т (5), (1) 


где /1(5) — количество правильно классифицированных объектов с использованием 
подмножества признаков 5, /2(5) — количество элементов подмножества признаков 5. 

В предлагаемом подходе для выделения признаков использован генетический 
алгоритм, который имеет модифицированную схему реализации применительно к 
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задаче многокритериальной оптимизации. Согласно алгоритму не требуется изна- 
чальное определение весовых коэффициентов, соответствующих отдельным целе- 
вым критериям [3]. Решение задачи оптимизации в этом случае можно получить в 
виде нескольких недоминируемых подмножеств признаков. 

Для расчета точности классификации с использованием подмножества приз- 
наков используется алгоритм А-ближайших соседей [4]. Согласно этому алгоритму 
для каждого объекта определяется А-ближайших соседей в пространстве признаков. 
Выбор соседей обычно выполняется на основании значений евклидовых расстояний, 
хотя можно использовать другие метрики (например, расстояние Махаланобиса). В ка- 
честве класса объекта выбирается класс, к которому относится большинство из (- 
ближайших соседей. 


2. Описание эволюционного подхода 


Среди различных категорий алгоритмов выделения признаков генетические алго- 
ритмы стали применяться относительно недавно. Генетические алгоритмы представляют 
собой стохастические методы решения оптимизационных задач, в основе которых лежит 
моделирование процессов биологической эволюции [5]. Генетические алгоритмы можно 
отнести к наиболее эффективному методу глобального поиска в многомерном прост- 
ранстве признаков, позволяющему получить оптимальное или близкое к нему решение 
поставленной задачи и учесть возможные взаимозависимости между признаками. Многие 
авторы применяли генетические алгоритмы для отбора признаков, где в качестве зна- 
чения оценочной или оптимизируемой функции выступала точность классификации с 
использованием дерева решений и классификаторов, основанных на принципе ближай- 
ших соседей [6] [7]. 

В работе [6] описан один из первых подходов к использованию генетического 
алгоритма для отбора признаков. В [6] ГА используется для поиска оптимального 
бинарного вектора, где каждый бит соответствует отдельному признаку (рис. 1). 
Если 1-й бит вектора равен единице, то соответствующий ему признак участвует в 
классификации; если бит равен нулю, тогда соответствующий признак исключается 
из дальнейшего анализа. 


Признак 2 включен в классификационную модель 
Признак 1 исключен из классификационной модели 


Рисунок | — и-мерный бинарный вектор, определяющий особь популяции 
генетического алгоритма для отбора признаков 


Основными предварительными этапами при использовании генетического 
алгоритма для выделения информативных признаков является определение коди- 
ровки особей, оценочной функции или функции приспособленности и основных 
операций селекции и рекомбинации. 
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В общем случае ГА может осуществлять поиск наилучшей диагональной матрицы 
У или вектора ее диагональных элементов У = м4, | который представляет 
собой «наилучшее» преобразование исходного признакового пространства с целью 
максимизации/минимизации оптимизируемого критерия. Для расчета значения оптими- 
зируемого критерия каждый входной объект данных х = , он и преобразуется 
с использованием генетически сгенерированной матрицы У с целью получения 
нового вектора признаков у: 


У=И(®), 
0 У?’> к 0 
где И = : 
ооо 


а) если м; Е {0,1}, 1<71<пи, то в качестве элементов вектора у используются 


только бинарные значения. В этом случае если 1-ый компонент вектора % равен 
единице, то 1-ый признак сохраняется в отбираемом подмножестве, в противном 
случае признак исключается из подмножества. В этом случае осуществляется отбор 
признаков и сокращается размерность исходного признакового пространства; 

Ь) если у; е [4.5] например у; е [0,10] 1<1<п, то осуществляется выделение 
признаков, т.е. происходит поиск относительных весов признаков, которые обеспечивают 
наилучшее значение оптимизируемого критерия. Значения весов признаков определяют 
их полезность для решения соответствующей оптимизационной задачи. Весовые 
коэффициенты со значениями, близкими к нулю, указывают на низкую информативность 
признака. В этом случае эти признаки могут быть исключены из рассмотрения; 

с) если в особи ГА закодировать как вектор с бинарными значениями, так и вектор 
весовых коэффициентов, то возможно одновременно решить задачу линейного масшта- 
бирования (взвешивания) и отбора признаков, что позволяет определить не только состав 
отобранных информативных признаков, но и степень их информативности для конкрет- 
ной задачи. 

Таким образом, предложенный в настоящей работе эволюционный подход 
включает два способа выделения информативных признаков: 

1) отбор некоторого количества предсказывающих классификационных признаков 
из всего множество анализируемых признаков; 

2) взвешивание признаков с одновременным отбором. 

Для каждого из перечисленных способов используется различное кодирование 
особей генетического алгоритма и соответственно различные операции рекомбинации и 
мутации. 

В связи с тем, что выделение признаков рассматривается как задача многокрите- 
риальной оптимизации, то приспособленность каждой особи генетического алгоритма 
определяется двумя численными значениями: точностью классификации набора данных с 
использованием алгоритма К-ближайших соседей и количеством выделенных признаков. 
Основные генетические операции используемого ГА описаны в работе [3]. 

Генетический алгоритм для многокритериальной оптимизации позволяет на каждой 
генерации выделять все недоминируемые решения и передавать их в следующую гене- 
рацию, тем самым, обеспечивая сохранение наиболее приспособленных особей в после- 
дующих поколениях и сходимость ГА. 
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3. Описание исследуемого набора данных и результатов 
вычислений 


Исходный исследуемый набор данных состоит из 101 наблюдения клинически 
выверенных случаев пациентов с атеротромботическим этиопатогенезом эпизодов ТИА 
(СубТИА1) - 22 наблюдения, кардиоэмболическим (СубТИА2?) — 23 наблюдения и гипер- 
тензивным (СубТИАЗ) — 22 наблюдения. Контрольная группа НОРМА включала 34 
наблюдения. Каждое наблюдение характеризуется измерениями по 25 клиническим и 
персональным признакам. 


3.1. Результаты работы ГА в случае отбора признаков 


Рассмотрим результаты работы ГА в случае решения задачи отбора признаков для 
распознавания подтипов ТИА. Используемые в этом случае значения параметров ГА при- 
ведены в табл. 1. Каждая особь ГА представляет собой частное решение задачи отбора 
признаков и состоит из и ген, где и — количество всех рассматриваемых признаков (и = 25). 
Каждый ген может принимать значение 0 или 1, что указывает на исключение/включение 
соответствующего признака в состав подмножества отбираемых признаков. 


Таблица 1 — Значения параметров ГА 


Параметр Значение 
Размерность популяции ГА 200 
Количество генераций 100 
Вероятность рекомбинации 0,8 
Вероятность мутации 0,1 


На рис. | представлены значения ошибки классификации, с использованием 
подмножеств признаков различной размерности, полученных в ходе работы ГА. 
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Рисунок 1 — Эволюция популяций ГА в двухмерном пространстве 
оптимизационных критериев 


Полученные в процессе работы ГА недоминируемые решения — Парето-оптималь- 


ный фронт — многокритериальной оптимизационной задачи отбора признаков пред- 
ставлены на рис. 2. 
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Рисунок 2 — Недоминируемые подмножества признаков: горизонтальная ось 
определяет количество признаков, вертикальная — ошибку классификации 
(распознавания) подтипов ТИА 


Согласно рис. 2 подмножество признаков, обеспечивающее минимальную ошибку 
классификации (= 30%) с использованием алгоритма К-ближайших соседей состоит из 
8 признаков. 


3.2. Результаты работы ГА в случае взвешивания признаков 
с одновременным отбором 


Рассмотрим результаты работы ГА в случае решения задачи взвешивания 
признаков с одновременным отбором для распознавания подтипов ТИА. Используемые в 
этом случае параметры ГА идентичны приведенным в табл. 1. Каждая особь ГА 
представляет собой частное решение задачи взвешивания и отбора признаков и состоит 
из 2*и ген, где и — количество всех рассматриваемых признаков (и = 25). Первые и ген 
могут принимать действительное значение у; в интервале [0,10], обеспечивающее неза- 
висимое линейное масштабирование отдельных признаков, последующие и ген могут 
принимать бинарные значения и предназначены для отбора признаков. Таким образом, 
результатом работы ГА являются недоминируемые подмножества признаков с весовыми 
коэффициентами (рис. 3). 
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Рисунок 3 — Эволюция популяций ГА в двухмерном пространстве 
оптимизационных критериев 
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Полученные в процессе работы ГА недоминируемые решения — Парето-оптималь- 
ный фронт — многокритериальной оптимизационной задачи взвешивания и отбора приз- 
наков представлены на рис. 4. 
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Рисунок 4 — Недоминируемые подмножества признаков: горизонтальная ось 
определяет количество признаков, вертикальная — ошибку классификации 
(распознавания) подтипов ТИА 


Весовые коэффициенты недоминируемого подмножества, обеспечивающего 
минимальную ошибку классификации 25,7 %, представлены в табл. 2. 


Таблица 2 — Весовые коэффициенты отобранных признаков 


Признак | РЕОЕЕЗЗМ | НЕВЕР СУ | НУРЕВТЕМ | СОВСАВ$С 
Вес 3,7 3,3 5,4 6,5 
Признак | ВВОМСНВО | НЕАРАСНЕ | УЕВТ!СО 
Вес 9,6 4,2 9,4 

Заключение 


В настоящей работе описаны два способа выделения признаков, которые позволяют 
сократить сложность и повысить точность классификации путем получения недоми- 
нируемых подмножеств признаков с использованием генетического алгоритма, предназ- 
наченного для решения многокритериальных задач. Преимуществом использования ГА в 
этом случае является получение нескольких решений с последующей возможностью 
привлечения знаний и опыта экспертов с целью выбора окончательного подмножества 
предсказывающих признаков. Применение предложенного эволюционного подхода к 
дифференциальной диагностике подтипов транзиторных ишемических атак позволяет 
сконцентрировать внимание на небольшом количестве признаков, являющихся в этом 
случае наиболее информативными, и получить классификационное решение, которое не 
уступает по точности классификации с решением, полученным с учетом 25 исходных 
признаков. 

Дальнейшим направлением исследований является использование ГА для парал- 
лельного отбора признаков и наблюдений из набора данных, что позволит сократить 
количество прототипов, используемых при проведении классификации методом (- 
ближайших соседей. Для больших наборов данных такой отбор позволит уменьшить 
временные и вычислительные затраты на осуществление классификации объектов 
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данных. Интерес представляет также использование результатов применения эволю- 
ционного подхода к отбору признаков для построения ансамблей классификаторов и 
применение различных комбинационных методов для получения более высокой 
точности классификации [8]. 
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Н.А. Новосьолова, О.С. Мастики, 1.Е. Том 

Еволюцщйний шдхщ до видлення 1нформативних ознак у завданнях анал!зу медичних даних 

У статт! розглядаеться шджд до видлення 1нформативних ознак стосовно до завдання розшзнавання 
шдтишв транзиторних ппемичних атак. Здно 13 запропонованим шдходом завдання видлення ознак 
розглядаеться як завдання багатокритер!ально! оптимзаци 1з двома критерлями. Оптимзащя 
здайснюеться з використанням спещального генетичного алгоритму, що дозволяе в процес! еволюцИи 
одержати безллч недомнуючих рипень оптим1защйно! задач!. Запропонований шШдх!д дозволяе 
шдключити експерта на етап! остаточного прийняття ришень, надаючи йому можливсть в1дбору 
шдмножини ознак, найбльш в1дпов1дного його знанням 1 уявленням про розв’язуване завдання. 


№А. №Моуо5еоуа, А.5. Мази, Г.Е. Тот 

Еуош@опакгу арргоасВ 0 шогтабНуе Геафиге ехгасНоп ш ше са! да{а апа!у$15 

ТЬе рарег ргорозез ап арргоасВ ю шЮюппануе Ееаваге ехасНоп аз аррЦе ю тесоспюоп оЁ тапзепе 
1зспепма аНаск зиБурез. Ассог4те № Ше арргоасВ Ше ГЕеабаге ехгасНоп 15 сопз14еге4 аз ти-обеснуе 
орйпиханоп ‘базК \уИН 6мо степа. Те орйпиханоп ргосезз 1$ реоппе4 \мИй зресла| сепейс а]еогитт, 
аПо\уше 1ю Нпа Фе 5е{ оЁ поп-дотшае4 зо[аНоп$ оР орНиитаНоп 1азК дигте еуо[аНоп. Те ргорозе4 
арргоасН епа ез фе айгасйоп о{ те@1са] ехрег ю Япа| 4ес151оп таК1пе, {акте шю ассоип №15 Кпо\Ледее 
ап с1еаг 14еа оЁ теФса| {азК. 


Статья поступила в редакцию 29.07.2008. 
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